HTTP মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডাটা এক্সট্র্যাক্ট করা

Tika REST Server ব্যবহার - অ্যাপাচি টিকা (Apache Tika) - Java Technologies

279

অ্যাপাচি টিকার একটি অন্যতম গুরুত্বপূর্ণ বৈশিষ্ট্য হলো HTTP REST API এর মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করার সুবিধা। এটি Tika Server ব্যবহার করে করা হয়।


Tika Server সেটআপ

Tika Server চালানোর জন্য Tika-app JAR ফাইল প্রয়োজন হয়।

  1. Tika Server ডাউনলোড করুন
    Apache Tika Server ডাউনলোড করতে Apache Tika's Official Page থেকে tika-server-x.x.jar সংগ্রহ করুন।
  2. Tika Server রান করুন
    নিচের কমান্ড দিয়ে Tika Server চালু করুন:

    java -jar tika-server-x.x.jar
    

    এটি http://localhost:9998/ ঠিকানায় একটি REST API সার্ভার চালু করবে।


HTTP মাধ্যমে ফাইল আপলোড এবং এক্সট্র্যাকশন

Tika Server এর REST API ব্যবহার করে cURL অথবা অন্যান্য HTTP ক্লায়েন্টের মাধ্যমে ফাইল আপলোড করে টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়।

টেক্সট এক্সট্র্যাকশন

নিচের উদাহরণে cURL ব্যবহার করে একটি PDF ফাইল থেকে টেক্সট এক্সট্র্যাক্ট করা হয়েছে:

curl -T example.pdf http://localhost:9998/tika --header "Accept: text/plain"
  • -T example.pdf: আপলোড করা ফাইলের নাম।
  • http://localhost:9998/tika: Tika Server এর API এন্ডপয়েন্ট।
  • --header "Accept: text/plain": এক্সট্র্যাক্টেড আউটপুটকে টেক্সট ফরম্যাটে চাওয়া হয়েছে।

মেটাডেটা এক্সট্র্যাকশন

নিচের কমান্ডে শুধুমাত্র মেটাডেটা রিটার্ন করা হবে:

curl -T example.pdf http://localhost:9998/meta

POSTMAN ব্যবহার করে API কল

  1. POSTMAN ওপেন করুন এবং একটি POST Request তৈরি করুন।
  2. Request URL: http://localhost:9998/tika
  3. Headers:
    • Key: Accept
    • Value: text/plain
  4. Body:
    • Type: binary
    • ফাইলটি আপলোড করুন (উদাহরণ: example.pdf)।
  5. Send করুন এবং আউটপুট টেক্সট হিসেবে দেখুন।

HTTP REST API এন্ডপয়েন্ট সমূহ

এন্ডপয়েন্টকাজের বর্ণনাআউটপুট ফরম্যাট
/tikaফাইল থেকে টেক্সট এক্সট্র্যাক্ট করাটেক্সট
/metaফাইল থেকে মেটাডেটা এক্সট্র্যাক্ট করাJSON
/languageফাইলের ভাষা সনাক্ত করাপ্লেইন টেক্সট
/rmetaমেটাডেটা এবং কন্টেন্ট একসাথে রিটার্ন করাJSON

একটি উদাহরণ: Python ব্যবহার করে HTTP রিকোয়েস্ট

Python এর মাধ্যমে Tika Server এ ফাইল আপলোড করে কন্টেন্ট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। নিচের উদাহরণে এটি দেখানো হয়েছে:

import requests

# Tika Server URL
tika_url = "http://localhost:9998/tika"
meta_url = "http://localhost:9998/meta"

# ফাইলের পাথ
file_path = "example.pdf"

# টেক্সট এক্সট্র্যাক্ট করা
with open(file_path, "rb") as file:
    response = requests.put(tika_url, data=file, headers={"Accept": "text/plain"})
    print("Extracted Text:")
    print(response.text)

# মেটাডেটা এক্সট্র্যাক্ট করা
with open(file_path, "rb") as file:
    response = requests.put(meta_url, data=file)
    print("Extracted Metadata:")
    print(response.json())

সারাংশ

HTTP REST API এর মাধ্যমে অ্যাপাচি টিকা ব্যবহার করে ফাইল আপলোডের মাধ্যমে সহজেই টেক্সট এবং মেটাডেটা এক্সট্র্যাক্ট করা যায়। এটি স্কেলেবল অ্যাপ্লিকেশন ডেভেলপমেন্টে বিশেষ সুবিধা দেয়। Tika Server সেটআপ করলে cURL, Postman বা Python এর মতো টুলস ব্যবহার করে সহজেই REST API এর মাধ্যমে কাজ করা সম্ভব।

Content added By
Promotion

Are you sure to start over?

Loading...